Un ONG (Organisme Non Gouvernemental) dispose d’une enveloppe de 10 millions de dollars afin d’aider 167 pays (à peu près tous les pays du monde) sur des plans humanitaires, structurels ou autres. A cet effet, nous disposons d’une base de données regroupant certains facteurs socio-économiques et sanitaires pour aider le directeur dans sa prise de décision. La problématique est la suivante: Comment allouer cet somme d’argent de manière stratégique et efficace? Comment déterminer les pays à aider en priorité? Pour se faire, nous procéderons d’abord au traitement des données. Ensuite, nous classifierons les pays en différents groupes. Et, finalement, nous déterminerons les pays à aider en priorité et proposeront une méthode d’allocation du montant que l’on devrait leur allouer à chaque pays.
Notre jeu de données est composé de 167 lignes (les pats) et de 10 colonnes (les variables explicatives).
enfant_mort exports sante imports
Min. : 2.60 Min. : 0.109 Min. : 1.810 Min. : 0.0659
1st Qu.: 8.25 1st Qu.: 23.800 1st Qu.: 4.920 1st Qu.: 30.2000
Median : 19.30 Median : 35.000 Median : 6.320 Median : 43.3000
Mean : 38.27 Mean : 41.109 Mean : 6.816 Mean : 46.8902
3rd Qu.: 62.10 3rd Qu.: 51.350 3rd Qu.: 8.600 3rd Qu.: 58.7500
Max. :208.00 Max. :200.000 Max. :17.900 Max. :174.0000
revenu inflation esper_vie fert
Min. : 609 Min. : -4.210 Min. :32.10 Min. :1.150
1st Qu.: 3355 1st Qu.: 1.810 1st Qu.:65.30 1st Qu.:1.795
Median : 9960 Median : 5.390 Median :73.10 Median :2.410
Mean : 17145 Mean : 7.782 Mean :70.56 Mean :2.948
3rd Qu.: 22800 3rd Qu.: 10.750 3rd Qu.:76.80 3rd Qu.:3.880
Max. :125000 Max. :104.000 Max. :82.80 Max. :7.490
pib_h
Min. : 231
1st Qu.: 1330
Median : 4660
Mean : 12964
3rd Qu.: 14050
Max. :105000
Il ne semble pas y avoir de valeurs aberrantes dans les distributions et le jeu de données ne contient pas de valeurs manquantes. Ci-dessous la visualisation des distributions des variables à l’aide de Boxplot.
Tous les boxplots contiennent au moins une valeur que l’on peut qualifier d’atypiques et non d’aberrante en connaissance du jeu de données dû aux variabilités en terme de critères sociaux et économiques à l’échelle mondiale. De plus, il ne sera pas nécessaire de centrer et de reduire les variables car cela sera fait à l’aide des méthodes que nous employerons tel que l’ACP.
Pour comprendre les enjeux de l’ONG, nous porterons un bref regard sur la corrélation entre les variables que nous avons à disposition afin d’en savoir plus et d’en relever de potentielles problématiques.
Sans surprise, on voit qu’il y a de fortes corrélations (positives ou négatives) entre les couples de variables suivants :
Ci-dessous les visualisations de la variable enfant_mort enfant de la variable fert, de la variable revenu en fonction de la variable export et de la variable revenu en fonction de la variable esper_vie.
Nous avons une relation linéaire positive, la corrélation n’est pas signe de causalité mais il semblerait que le fléau du nombre de décès d’enfants ait un lien avec le nombre d’enfant par femme. Bien évidemment, d’autres facteurs rentre en compte. Un des but de l’ONG est sûrement de contribuer à une réduction du problème pour les pays concernées.
En raison d’une relation non linéaire nous avons pour ce graphique ajuster avec utilisé l’option “loess” pour lisser localement afin d’ajuster la courbe aux données. Il semblerait que les exports pour un pays puissent être une bonne stratégie pour augmenter leurs revenu net moyen par personne. Les pays ayant une faible valeur pour la variable revenu seront sûrement plus en difficulté.
Une nouvelle fois, nous avons ajusté la tendance aux données (relation logarithmique). Plus le revenu moyen par personne augmente jusqu’à un certain seuil et plus l’espérance de vie va augmenter. On peut remarquer qu’un pays dispose d’une espérance de vie moyenne de 30 ans ! Il s’agit de l’Haïti.
Ces quelques graphiques montre la disparité et l’importance même de trouver la meilleur stratégie possible pour aider les pays le plus équitablement.
L’analyse en composante principale sera utilisée pour explorer la structure sous-jacente des données et de mettre encore un peu plus en évidence les relations entre les variables et individus.
Axes 1 & 2 (axes principaux)
Sur l’axe principale (axe 1) expliquant 45% de l’information, les variables fert et enfant_mort s’oppose aux variables santé, esper_vie, pib_h et revenu. Plus un pays sera corrélé positivement à l’axe 1 et plus il aura de meilleur condition de “bien-être”.
L’axe 2 quant à lui met en avant les importations et exportations de biens et services par habitant. Montre la dépendance du pays au marché mondial.
Les variables les moins bien représentées sont santé et inflation. Leurs interprétations sera sûrement plus intéressante sur d’autres axes de l’ACP.
Axes 3 & 4 Dans cette dimension la variable sante est bien mieux représenté et porte l’axe 3 à gauche. Ainsi plus un pays se situe en haut à gauche et plus les dépenses totales de santé par habitant seront élevés.
Graphique des individus En connaissance du monde économique, on remarque que sur la gauche, il y a des pays que nous qualifieront de “pauvre” issu du continent africain et sur la droite des pays émergent et plus développé. Beaucoup de pays du continent africain à gauche du graphique.
L’axe 2 met en lumière des pays important et exportant beaucoup tels que le Luxembourg ou encore Singapour qui très connu pour son économie ouverte.
Ci-dessous nous avons représenter une carte mettant en évidence l’espérance de vie pour chacun des pays.
Plus l’espérance de vie des individus d’un pays est élevée, plus ce pays est foncé sur la carte. On note pour cette variable que ce sont en général les pays subsahariens et d’Asie centrale qui ont une espérance de vie moyenne la plus petite. Nous verrons par la suite avec des méthodes de classifications adéquat si nos hypothèses se révèlent vraies.
Afin de déterminer les meilleurs partitions pour regrouper nos pays, nous savons que la partition obtenue par CAH n’est pas nécessairement optimale et que la méthode des K-means dispose de deux inconvénients majeurs à savoir le choix du nombre de classes et que la partition dépend de l’initialisation. En connaissance de ces éléments, nous utiliserons une partition obtenue par CAH comme initialisation de l’algorithme de K-means dans un but de consolidation (classification conjointe). La CAH assurera la stabilité des classes trouvées. Cela devrait améliorer la partition finale obtenue car à chaque itération l’inertie intra diminuera.
Dendogramme avec la methode du saut minimal
Dendogramme avec la methode du saut maximal
Dendogramme avec la methode de WARD
Le tracé de la perte d’inertie nous incite à choisir une partition en 3 (ou 4) groupes pour les trois graphiques d’évolution d’inerties. Nous en choisirons 3 pour l’étude.
La variance inter-groupes de 79.2 est relativement élevée par rapport à la variance totale, ce qui peut indiquer une segmentation réussie. Représentation de nos 3 groupes sur un axe d’ACP.
Nous obtenons un premier partionnement pour nos 167 pays.
[1] "Nous trouvons 109 pays pauvres. Ces pays sont: "
[1] "Afghanistan ; Albania ; Algeria ; Angola ; Armenia ; Azerbaijan ; Bangladesh ; Belarus ; Belize ; Benin ; Bhutan ; Bolivia ; Bosnia and Herzegovina ; Botswana ; Brazil ; Bulgaria ; Burkina Faso ; Burundi ; Cambodia ; Cameroon ; Cape Verde ; Central African Republic ; Chad ; China ; Colombia ; Comoros ; Congo Dem. Rep. ; Congo Rep. ; Costa Rica ; Cote d'Ivoire ; Dominican Republic ; Ecuador ; Egypt ; El Salvador ; Eritrea ; Fiji ; Gabon ; Gambia ; Georgia ; Ghana ; Grenada ; Guatemala ; Guinea ; Guinea-Bissau ; Guyana ; Haiti ; India ; Indonesia ; Iran ; Iraq ; Jamaica ; Jordan ; Kenya ; Kiribati ; Kyrgyz Republic ; Lao ; Lebanon ; Lesotho ; Liberia ; Macedonia FYR ; Madagascar ; Malawi ; Maldives ; Mali ; Mauritania ; Mauritius ; Micronesia Fed. Sts. ; Moldova ; Mongolia ; Montenegro ; Morocco ; Mozambique ; Myanmar ; Namibia ; Nepal ; Niger ; Nigeria ; Pakistan ; Panama ; Paraguay ; Peru ; Philippines ; Romania ; Rwanda ; Samoa ; Senegal ; Serbia ; Sierra Leone ; Solomon Islands ; South Africa ; Sri Lanka ; St. Vincent and the Grenadines ; Sudan ; Suriname ; Tajikistan ; Tanzania ; Thailand ; Timor-Leste ; Togo ; Tonga ; Tunisia ; Turkmenistan ; Uganda ; Ukraine ; Uzbekistan ; Vanuatu ; Vietnam ; Yemen ; Zambia"
[1] "Ensuite, nous trouvons 35 pays moyens. Ces pays sont: "
[1] "Antigua and Barbuda ; Argentina ; Bahamas ; Bahrain ; Barbados ; Chile ; Croatia ; Cyprus ; Czech Republic ; Equatorial Guinea ; Estonia ; Greece ; Hungary ; Israel ; Italy ; Kazakhstan ; Latvia ; Libya ; Lithuania ; Malaysia ; Malta ; New Zealand ; Oman ; Poland ; Portugal ; Russia ; Saudi Arabia ; Seychelles ; Slovak Republic ; Slovenia ; South Korea ; Spain ; Turkey ; Uruguay ; Venezuela"
[1] "Finalement, nous trouvons 23 pays riches. Ces pays sont: "
[1] "Australia ; Austria ; Belgium ; Brunei ; Canada ; Denmark ; Finland ; France ; Germany ; Iceland ; Ireland ; Japan ; Kuwait ; Luxembourg ; Netherlands ; Norway ; Qatar ; Singapore ; Sweden ; Switzerland ; United Arab Emirates ; United Kingdom ; United States"
Le graphe du plan factoriel nous montre que les pays à aider en priorité sont ceux coloriés en noir. L’axe 1 de la nouvelle analyse en composante principale étant toujours déterminé par les facteurs variables fert et enfant_mort s’opposant aux variables esper_vie, pib_h et revenu alors les individus le groupe d’individu le plus à gauche peut être considérer comme le plus “pauvre”.
[1] "le nombre de pays a aider en priorite est: 34"
[1] "ces pays sont:"
[1] "Afghanistan ; Benin ; Burkina Faso ; Burundi ; Cameroon ; Central African Republic ; Chad ; Comoros ; Congo Dem. Rep. ; Cote d'Ivoire ; Gambia ; Ghana ; Guinea ; Guinea-Bissau ; Haiti ; Kenya ; Kiribati ; Lao ; Lesotho ; Liberia ; Madagascar ; Malawi ; Mali ; Mauritania ; Micronesia Fed. Sts. ; Mozambique ; Niger ; Rwanda ; Senegal ; Sierra Leone ; Tanzania ; Togo ; Uganda ; Zambia"
C’est pourquoi nous avons songer à utiliser la transformations d’attribut ordinale (groupe d’individus) qui seront considérés comme quantitatif en veillant à respecter les ordres.
groupes nbre_pays proportions ordres valeur_ordres allocation_de_classe
1 groupe_1 109 0.6526946 1 0.8333333 5944112
2 groupe_2 35 0.2095808 2 0.5000000 2838323
3 groupe_3 23 0.1377246 3 0.1666667 1217565
allocation_de_chaque_pays
1 54533.14
2 81094.95
3 52937.60
De ce fait, nous proposons l’allocution suivante au directeur avec une division de la classe des pays pauvre comme il l’a été fait avec la classification:
les_groupes nombre_pays les_proportions les_ordres valeur_des_ordres
1 1 34 0.2035928 1 0.9
2 2 35 0.2095808 2 0.7
3 3 40 0.2395210 3 0.5
4 4 35 0.2095808 4 0.3
5 5 23 0.1377246 5 0.1
allocation_de_classe2 allocation_de_chaque_pays2
1 3153122 92738.89
2 2598802 74251.50
3 2112917 52822.93
4 1455945 41598.44
5 679213 29531.00
• Ainsi, le groupe 1 est le groupe des pays à prioritaire des 34 pays. Chacun de ses pays se verra allouer la somme de 92738.89 • Ainsi, le groupe 2 est le groupe 2 de la seconde classification(parmi les 109 pays pauvres). Chacun de ses pays se verra allouer la somme de 74251.50 • Ainsi, le groupe 3 est le groupe 3 de la seconde classification(parmi les 109 pays pauvres). Chacun de ses pays se verra allouer la somme de 52822.93 • Ainsi, le groupe 4 est le groupe 2 de la classification initiale. Chacun de ses pays se verra allouer la somme de 41598.44 • Ainsi, le groupe 5 est le groupe 3 de la classification initiale. Chacun de ses pays se verra allouer la somme de 29531.00
En fin de compte, il est souvent utile d’essayer plusieurs méthodes d’agrégation pour déterminer la meilleure approche pour l’analyse de cluster spécifique.
Piste d’amélioration: